97 research outputs found

    Training Methods for Deep Neural Network-Based Acoustic Models in Speech Recognition

    Get PDF
    Nowadays, speech recognition technology is built on Deep Neural Networks. These networks represents the latest direction of machine learning. They are based on the theory of artificial neural networks, which have been used for decades. However, unlike traditional Neural Networks, all deep networks contain many processing layers, which allow the hierarchical processing of the input data. While the concept of deep networks is not totally new, their efficient training required several new achievements. These new networks managed to completely replace the Gaussian Mixture Models in the state-of-the-art speech recognition systems. In this study, we decided to focus on Deep Neural Network-based recognition systems. First, we compared the performance of several new training algorithms with each other, in order to determine the best one for later use. Then, we turned my attention to the algorithms that the new speech recognition systems have inherited from the previous Gaussian Mixture Model-based approaches, as the algorithms might not be optimal for Deep Neural Networks. we proposed new algorithms for obtaining the initial alignment of the frame-level state labels and the creation of context-dependent states, and found that they are better suited for the new acoustic models. Lastly, we also experimented with a data re-sampling method to improve the accuracy of the models

    Kezdeti lépések egy európai forenzikus tudományos térség létrehozása felé

    Get PDF
    A büntetőjogi harmonizációt szolgáló egyes uniós dokumentumok ismeretében olyan organikus fejlődés figyelhető meg, amelynek során (f)okról (f)okra haladva erősödnek az igazságügyi együttműködés, és az ennek alapjául szolgáló egységesülő elvek és módszerek. Az egyre növekvő szervezettség okaként egyrészt tömeges társadalmi jelenségek szolgálnak, mint a bűnözés határtalansága, az illegális bevándorlás fokozódása; de jogalkotói lépéseket válthat ki egy-egy konkrét esemény, tragédia, avagy tévedés is

    Nagyszótáras beszédfelismerés morfémaalapú rekurrens nyelvi modell használatával

    Get PDF
    A klasszikus beszédfelismerő rendszerek számára hatalmas kihívást jelentenek az agglutináló nyelvek, hiszen pontos eredmények eléréséhez hatalmas szótárakra van szükség a ragozás és a szóösszetétel miatt. A probléma főleg a nyelvi modell részét érinti a felismerőnek, tekintve, hogy túl nagy szótárméret esetén a tanulási fázis rendkívül nehéz, ez pedig szuboptimális modellhez vezethet. Ezen problémára megoldást jelenthet, ha szavak helyett azoknál kisebb egységet, morfémákat használunk a nyelvi modellezés során. A cikkben bemutatásra kerül egy morfémaalapú, rekurrens neuronhálós nyelvi modellt alkalmazó beszédfelismerő, amely használatával szignifikánsan jobb eredményeket tudtunk elérni egy magyar nyelvű beszédkorpuszon mint a hagyományos szószintű megközelítéssel

    Szakértői bizonyítás a polgári peres eljárásban

    Get PDF
    Without abstractAbsztrakt nélkü

    Szakértői bizonyítás a polgári peres eljárásban

    Get PDF
    Without abstractAbsztrakt nélkü

    A bírói mérlegelés mikéntje ellentétes szakvélemények esetén

    Get PDF
    A szakértői bizonyítás fokozódó jelentőségét a természet- és egyéb tudományos ismeretek, módszerek bővülése és fejlődése, valamint az emberi/társadalmi viszonyok növekvő komplexitása alapozzák meg. Az érvényesnek elismert metódusok önmagukban is bizalmat ébresztenek a jogalkalmazóban, amelyet a jogalkotó különböző jogforrásokon keresztül, garanciális elemek bevezetésével tovább erősíthet. Az így generált bizalomnak számos következménye volt az elmúlt évszázadban, pl. az ugyanazon szakkérdésre egyidejűleg kirendelt szakértők számának csökkenése, az állandó szakértők általánossá válása, a bírói jelenlét nélkül folytatott sui generis vizsgálat, mint eljárási cselekmény gyakorlata. Azonban a szakértői bizonyítás professzionalizálódása ellenére biztosítani kell a szakvélemény konkurens ellenőrzésének elvi lehetőségét, éppen a megbízhatóság fenntartása végett. Az ellentétes szakvélemények ugyanakkor kétséget ébreszthetnek nem csupán az egyik, hanem akár mindkét szakvéleménnyel kapcsolatban, amelyek eloszlatását a jogalkalmazó – végső soron a bíró – első körben a már kirendelt szakértők útján kell, hogy elérje. Kérdés, miként, milyen szempontok alapján kísérelheti ezt meg? Milyen esetekben és okokból marad eredménytelen a szakértők párhuzamos meghallgatása, és ennek milyen következményei vannak? A gyakorlatra is kitekintő értekezésemben a szakértői bizonyítás érvényesülésének esszenciális kérdésével, az ellentétes szakvélemények bírói (felül)mérlegelésének lehetőségével és terjedelmével foglalkozom

    Topic Identification For Spontaneous Speech: Enriching Audio Features With Embedded Linguistic Information

    Full text link
    Traditional topic identification solutions from audio rely on an automatic speech recognition system (ASR) to produce transcripts used as input to a text-based model. These approaches work well in high-resource scenarios, where there are sufficient data to train both components of the pipeline. However, in low-resource situations, the ASR system, even if available, produces low-quality transcripts, leading to a bad text-based classifier. Moreover, spontaneous speech containing hesitations can further degrade the performance of the ASR model. In this paper, we investigate alternatives to the standard text-only solutions by comparing audio-only and hybrid techniques of jointly utilising text and audio features. The models evaluated on spontaneous Finnish speech demonstrate that purely audio-based solutions are a viable option when ASR components are not available, while the hybrid multi-modal solutions achieve the best results.Comment: Accepted to EUSIPCO 202

    Mély neuronhálós beszédfelismerők működésének értelmező elemzése

    Get PDF
    Manapság nyilvánvalóvá vált, hogy beszédfelismerésben a mély neuronhálós modellek teljesítenek a legjobban, azonban fontos kérdés, hogy miért működnek ilyen jól. Az utóbbi pár évben megnövekedett a igény, hogy a mély hálókat ne csupán fekete dobozként kezeljük, hanem azok belső működését próbáljuk megérteni, interpretálni is. Az interpretálásra több eszköz is létezik, jelen cikkben mi két beágyazási technikát alkalmazunk annak vizsgálatára, hogy egy neuronhálós beszédfelismerőn belül pontosan mi történik használat közben. A vizsgált háló egy magyar nyelvű beszédfelismerő része, amelyet egy híradós adatbázison tanítottunk. A háló struktúráját tekintve nem rendelkezik könnyen értelmezhető, keskeny üvegnyak (bottleneck) réteggel, ezért a neuronháló nagy méretű rejtett rétegeinek kimeneteit tanulmányoztuk. Első vizsgálataink során arra a kérdésre kerestük a választ, hogy mennyire jól különíti el az adott réteg a magán- és mássalhangzókat, valamint a csendes részeket. A következő lépésben azt tanulmányoztuk, hogy a magán- és mássalhangzókon belül más csoportok reprezentációja is azonosítható-e. Eredményeink alapján megállapítható, hogy a mély háló számos olyan tulajdonságot is megtanult a beszédhangokról, amelyek felismerésére explicit módon nem tanítottuk a hálót
    corecore